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要 : We na 大 数据 特征 选择 算法 计算 效率 低下 、 可 扩展 性 不 高 的 问题 , 提出 一 种 基于 改进 人 工蜂 群 (ABC) 
择 特 征 的 系统 架构 ， 该 架构 包含 四 层 体 系 ， 可 以 高 效 地 聚合 有 效 数据 ， 别 除 不 需要 的 数据 。 整 个 系统 是 基于 Hadoop 

平台 、MapReduce 以 及 改进 ABC 算法 的 。 改 进 ABC 算法 用 于 选择 特征 ,而 MapReduce 则 由 并 行 算法 支持 ,该 算法 可 

高 效 处 理 大 量 数据 集 。 该 系统 使 用 MapReduce 工具 实现 ， 并 利用 粒子 滤波 来 消除 骂 声 。 将 所 提出 的 算法 与 同类 方法 进 

行 比较 ， 并 通过 使 用 十 个 不 同 的 数据 集 对 效率 、 准 确 性 和 吞吐 量 进行 评估 。 结 果 表 明 ， 相 比 其 他 几 种 较 新 的 算法 ， 提 

出 的 算法 在 选择 特征 时 更 具 可 扩展 性 和 高 效 性 
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> Internet of things big data feature selection method based on particle filter and 
C 2 improved ABC algorithm on Hadoop platform 


Wu Ying!, Li Xiaoling!, Tang Jinglei? 
(1. College of Information & Bossiness, Zhongyuan Institute of Technology, Zhengzhou 451191, China; 2. School of 
Information Engineering, Northwest A&F University, Yangling Shaanxi 712100, China) 


Abstract: Aiming at the problem that the existing Internet of things big data feature selection algorithm has low computational 


efficiency and low scalability, this paper proposed a system architecture that selects features by using improved artificial bee 


colony. The architecture included a four-layer system and it could efficiently aggregate the effective data and eliminate 


unwanted data. The entire system was based on the Hadoop platform, MapReduce, and improved ABC algorithms. The 


method used improved ABC algorithm to select features and it also used a parallel algorithm to support MapReduce, which 
could efficiently process a huge volume of data sets. It used MapReduce tool to implement the system and it used particle filter 
for removal of noise. Compare the proposed algorithm with similar algorithms and evaluate the efficiency, accuracy and 
throughput by using ten different data sets. The results show that the proposed algorithm is more scalable and efficient in 
selecting features. 
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和 带宽 。 因 此 ， 物 联网 倾向 于 生成 大 量 数据 ， 称 为 大 数据 。 为 

了 应 对 这 些 限 制 ， 理 想 的 解决 方案 就 是 绿色 物 联 网 。 通 过 开展 

物 联网 (IoT) 是 连接 物理 世界 和 网 络 世 界 的 纽带 。 物 联网 技 ”环境 监测 来 减少 排放 和 污染 ， 以 降低 运营 成 本 以 及 功 耗 9。 在 
术 的 进步 使 得 新 型 应 用 和 服务 配置 需求 高 的 物理 世界 的 数字 前 的 大 数据 情况 下 ， 数 据 库 供应 商 已 经 引入 了 各 种 标准 和 平 
化 ， 各 种 各 样 的 东西 在 互联 网 的 帮助 下 被 分 组 在 一 起 以 共享 信 ” ” 台 用 于 数据 聚合 以 及 数据 分 析 。 但 这 些 平台 通常 功能 单一 ,无 
息 。 利用 IoT 可 以 感知 物理 环境 ， 收 集 数据 ， 传 输 或 传播 数据 ， ”法 在 IoT 大 数据 中 广泛 使 用 。 
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处 理 适当 应 用 程序 的 数据 以 及 与 其 他 事物 进行 通信 ， 给 人 们 的 基于 以 上 分 析 ， 特 征 选 择 是 处 理 大 数据 的 核心 方法 之 一 。 
生活 带 来 很 大 的 方便 。 特征 选择 包括 图 像 分 类 、 聚 类 分 析 、 数 据 挖掘 、 模 式 识别 和 图 

但 在 实施 方面 , IoT 带 来 了 非常 大 的 挑战 册 。 由 于 IoT 是 异 像 检 索 等 所 。 特征 选择 算法 分 为 两 大 类 : 滤波 方法 (filter) 和 包装 
构 事 物 的 混合 体 ， 与 传统 网 络 有 很 大 不 同 ， 其 可 扩展 性 变 得 更 。 (wrappe?) 方 法 。 在 基于 滤波 的 技术 中 ， 将 为 每 个 要 素 计算 权重 


加 复杂 中。 此 外 ， 在 IoT 中 相互 通信 的 设备 会 消耗 大 量 的 内 存 。 值 ， 以 便 可 以 选择 具有 更 好 人 


的 要 素来 表示 原始 大 数据 集 。 包 
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装 技 术 则 利用 特征 的 子 集 来 产生 一 组 提名 特征 。 之 后 ， 使 用 准 与 改进 ABC 结合 可 以 产生 最 佳 结果 。 

确 性 来 评估 特征 集 的 结果 , 它 能 取得 比 前 者 更 好 的 结果 。 此 外 ， 有 

凡 群 优化 I、 粒 子 群 优化 算法 加、 蝙蝠 算 法 四 和 人 工蜂 群 ”和 ”提出 的 万 法 

(Artificial Bee Colony, ABC)6&9 也 被 提出 来 以 提高 计算 效率 。 现 2.1 四 层 分 层 结构 

有 特征 选择 算法 存在 很 多 缺点 ， 比 如 实时 连续 数据 难以 提取 特 本 文 方法 包括 四 层 体 系 结构 模型 ， 每 一 层 都 有 不 同 的 功能 

征 ， 并 且 使 用 传统 工具 来 处 理 大 量 数据 时 效率 低下 。 支持 ， 使 读 写 操作 能 够 高 效 运行 ， 如 图 1 所 示 。 设 计 的 模型 可 
本 文 提出 了 一 个 系统 架构 ， 用 于 聚合 大 数据 ， 利 用 改进 以 帮助 不 同 的 对 象 使 用 共享 的 媒介 进行 交互 。 所 提出 的 体系 结 

ABC 算法 选择 特征 ， 并 将 数据 转发 到 Hadoop 平台 进行 并 行 处 构 模 型 可 以 在 应 用 程序 生成 各 种 差异 数据 。 

理 。 第 一 层 ”通过 各 种 对 象 生成 、 处 理 数据 ， 然 后 收集 和 聚合 

1 ”相关 研究 数据 。 由 于 生成 数据 涉及 不 同 数 量 的 对 象 ， 因 此 ， 整 个 过 程 会 

以 各 种 格式 ， 不 同 的 起 源 点 为 基础 ， 周 期 性 生成 大 量 的 异 构 数 


特征 选择 是 一 个 选择 特征 子 集 的 过 程 ， 可 以 运用 搜索 技术 


遍历 空间 以 实现 特征 选择 ， 但 这 种 方法 对 于 识别 大 量 特征 似乎 
不 切实 际 。 于 是 ， 科 研 人 员 想 到 将 群体 智能 技术 和 神经 网 络 技 


术 / 


于 特征 选择 。 同 样 的 ，Hadoop 分 布 式 文 件 服 务 器 也 可 用 于 


特征 选择 ， 该 服务 器 在 计算 机 节点 上 具有 多 个 本 地 磁盘 ， 从 而 


提供 


更 好 的 数据 局 部 性 101。 
计算 机 节点 连接 到 一 个 名 为 Lustre 的 


在 具有 高 性 能 计算 集群 的 系统 中 ， 
行文 件 系统 。Lustre 提 


供 了 一 个 高 效 且 可 扩展 
Lustre 系统 安装 在 使 用 Lustre 作为 本 地 存储 的 群集 上 。 这 


的 数据 存储 设施 。 


据 。 而 且 ， 各 种 数据 都 有 安全 性 、 隐 私 和 质量 上 


的 要 求 。 此 多 


在 传感器 的 数据 中 ， 元 数据 始终 大 于 实际 测量 值 。 因 此 ， 在 该 


期 注册 和 过 滤 技 术 ， 以 过 滤 不 必要 


本 
台 
LH 


的 数据 汇集 在 这 一 层 上 , 并 以 适当 的 


完成 数据 的 特征 


二 4 
Fz 


的 元 数据 以 及 元 


该 层 为 各 种 设备 提供 端 到 端的 连接 。 此 外 ， 在 不 


形式 进行 排列 。 


特征 提取 和 处 理 层 是 整个 系统 体系 结构 的 主要 
是 取 和 处 理 部 分 。 由 于 本 文 需要 实时 数 


据 流 和 离线 数据 分 析 ， 因 此 ， 需 要 一 个 第 三 方 的 实时 工具 与 处 


些 本 地 存储 适 ) 


于 传统 的 MapReduce 功能 , 这 些 功能 可 以 分 两 


步 完 成 ， 即 


读 写 操作 。 


于 Lustre 系统 的 读 写 吞 吐 量 很 高 ， 这 


些 操作 提供 了 高 速 数据 路 径 。Lustre 内 部 传输 所 需 的 时 间 取 决 


于 许多 因素 ， 如 集群 互联 、 数 据 加 载 等 ， 这 些 因素 在 组 合 时 会 


对 传统 的 MapReduce 功能 产生 影响 。 
MapReduce 编程 可 以 生成 大 量 的 数据 集 ， 
现实 世界 任务 的 广泛 多 样 性 。MapReduce 将 输入 数据 分 成 完全 
行 处 理 的 小 独立 块 。 MapReduce 体系 结构 将 映射 输出 分 类 
发 送 到 reduce 作业 ， 任 务 的 输入 和 输出 保存 在 文件 系统 中 。 


Google 文件 系 


量 的 计算 机 集群 ， 通 过 交换 机 以 太 网 进行 
MapReduce 方案 降 


这 些 数据 集 对 应 


统 就 是 受到 MapReduce 模型 的 启发 ， 它 利用 大 
居 合 。 
广泛 分 布 式 应 用 程序 的 机 群 成 本 。 


Google 


氏 了 


MapReduce 方法 使 建立 过 程 更 简单 、 更 容易 。 它 基于 实时 执行 ， 


没 


操作 。Google 


于 标识 数据 的 位 置 和 可 访问 性 。 

粒子 群 优化 技术 也 可 ) 
用 该 算法 能 够 降 
提取 特征 时 会 需要 更 多 的 时 间 ， 


定义 节点 的 预先 计划 执行 调度 。MapReduce 范例 可 以 在 
分 布 式 节 点 上 执行 。 
且 平 衡 每 个 集群 的 负载 ， 使 科研 人 员 可 以 更 轻松 简单 的 执行 


MapReduce 模型 可 以 获得 较 强 的 容错 能 


的 MapReduce 结构 最 初 是 分 布 式 文件 系统 ， 用 


于 特征 选择 和 处 理 大 型 数据 集 ， 使 
氏 系 统 的 复杂 性 ， 提 高 效率 。 从 大 型 数据 集中 
在 这 个 过 程 中 ， 不 同 的 噪 


声 数据 过 滤 算 法 会 对 提取 的 特征 子 集 产生 重要 影响 。 


I 


基于 上 述 卷 积 方法 和 传统 Hadoop 技术 的 方法 需要 系统 从 
大 量 数据 中 选择 最 优 的 特征 。 
Hadoop 平台 和 改进 ABC 算法 的 物 联网 大 数据 特征 选择 方法 。 


为 此 ， 本 文 提 出 了 一 种 基于 


改进 ABC 算法 可 以 有 效 地 选择 最 优 功 能 , 而 Hadoop 生态 系统 


理 服务 器 相 结合 来 提供 
Sparkk、VoltDb 和 Hupa 


作为 该 


实时 的 数据 处 理 ， 可 以 使 用 Strom、 
十 助 工 具 。 例 如 ， 可 以 使 用 


MapReduce 来 实现 数据 分 析 ， 使 用 改进 ABC 算法 能 够 使 本 文 


方案 更 好 地 从 大 型 数据 集中 获取 特征 。 
使 用 


在 这 一 层 ， 
了 和 HDFS 相同 的 结构 。 有 了 这 个 系统 ， 本 文 也 可 以 使 用 


MapReduce 


HIVE、HBASE 和 SQL 来 管 


fea 


商业 实体 商业 任务 商业 报告 


EE RR 


里 数据 库 来 存储 历史 信息 。 


波 
展 
和 
发 
展 
图 1 四 层 通信 模型 
第 四 层 ” 服 务 层 是 负责 将 第 三 方 接口 合并 到 对 象 和 人 的 最 


录用 稿 


底层 。 该 层 可 以 自主 地 用 作 单 个 站 点 ， 与 其 他 位 置 合 并 或 部 署 
在 云 界面 中 。 该 层 还 能 实现 其 他 功能 ， 例 如 ， 唯 一 的 全 局 标识 
管理 是 在 应 用 程序 层 中 处 理 整个 Universe 中 标识 对 象 的 关键 元 
素 。 此 外 ， 本 文 提出 的 构建 图 层 涉及 到 人 类 与 各 种 智能 对 象 的 
交互 ， 因 此 ， 在 应 用 层面 需要 一 种 智能 算法 ， 可 以 高 效 地 与 人 
进行 交互 。 服 务 层 的 功能 包括 会 话 启动 、 设 置 通信 规则 、 与 异 
构 对 象 交 互 以 及 终止 会 话 等 。 


1oT 应 用 


吴 上 颖 ， 等 : 平台 下 粒子 滤波 结合 改进 ABC 算法 的 IoT 大 数据 特征 选择 方法 


2.2 基于 Hadoop 和 改进 ABC 的 HIABC 算法 

为 了 详细 阐述 所 提出 的 系统 架构 的 体系 结构 ， 设 置 服务 场 
景 如 图 2 所 示 ， 包 括 智能 交通 控制 部 门 、 智 能 天 气 预 报 部 门 以 
及 智能 医院 和 卫生 部 门 。 上 述 组 件 负 责 收集 IoT 网 络 中 的 异 构 
数据 ， 可 以 充当 框架 的 底层 。 这 些 组 件 通 过 GSM、Wi-Fi、3G 
和 4G 等 异 构 接 入 技术 与 智能 决策 和 控制 系统 连接 ， 智 能 决策 
系统 位 于 智能 城市 框架 的 中 间 层 次 。 


数据 流 
级 别 条 目 
级 别 出 口 


三 


28 


图 2 HIABC 系统 体系 结构 


一 个 现实 的 IoT 环境 不 仅 包 含 大 量 的 数据 ， 还 包含 复杂 的 
计算 和 多 个 应 用 程序 [由 。IoT 系统 的 实现 依赖 于 数据 的 获取 和 
计算 分 析 。 智 能 环境 理念 旨 在 优化 住宅 资源 、 减 少 交通 拥堵 、 
提供 有 效 的 医疗 服务 。 获 取 与 日 常 运营 活动 相关 的 数据 对 于 实 
现 上 述 目标 至 关 重 要 ， 但 是 ， 由 于 人 员 和 其 他 连接 设备 产生 大 
量 数据 ， 数 据 采 集 问题 变 得 尤为 艰难 。 因 此 ， 本 文 考 虑 将 数据 
转换 成 数字 数据 。 低 成 本 和 高 能 效 的 传感器 已 经 成 为 从 城市 
IOT 获取 异 构 数 据 的 有 效 机 制 。 随 着 连接 设备 数量 的 增加 ， 城 
市 变 得 更 加 智能 "4。 因 此 ， 在 城市 郊区 内 部 广泛 部 署 异 构 传 感 
器 能 够 促进 智能 城市 架构 的 形成 。 这 些 传感器 负责 收集 来 自 邻 


近 环 境 的 不 同类 别 的 实时 数据 。 

本 文 提出 的 方案 的 底层 由 多 个 组 件 组 成 。 智 能 家 居 的 关键 
是 提高 住宅 建筑 的 能 源 利 用 率 。 家 用 电器 配备 了 一 个 传感器 ， 
它 决定 了 实时 能 源 消耗 ， 并 将 数据 传送 到 中 间 层 。 数 据 处 理 层 
为 特定 家 庭 的 能 源 消耗 定义 了 一 个 闪 值 。 数 据 过 滤 过 程 由 数据 
聚合 技术 执行 以 确定 超过 闹 值 的 值 ， 从 而 进一步 优化 处 理 。 车 
辆 运输 系统 的 主要 目标 是 减少 城市 交通 拥堵 。 数 据 处 理 级 别 定 
义 了 在 两 个 规定 点 之 间 传 输 的 平均 时 间 。 部 署 在 路 边 的 传感器 
收集 车 辆 在 两 点 之 间 的 出 入 信息 。 舱 入 式 聚 合 技术 通过 分 析 规 
定位 置 的 当前 行程 时 间 来 确定 拥堵 道路 。 气 象 部 门 的 作用 是 确 
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定 天 气 条 件 和 其 他 环境 参数 。 例 如 ， 部 署 在 某 些 位 置 的 传感器 
可 以 监测 城市 的 一 氧化 碳 浓 度 。 这 些 传 感 器 将 采集 到 的 数据 传 
送 到 中 间 层 进行 相应 地 过 滤 和 处 理 ， 以 便于 决策 和 事件 生成 。 
所 提出 的 架构 使 用 多 种 通信 技术 ， 包 括 ZigBee、 蓝 牙 、 
Wi-Fi 以 及 数据 和 蜂 宽 网 络 等 把 感 测 数 据 传输 到 数据 处 理 层 ， 
以 进行 数据 滤波 、 分 析 、 处 理 、 存 储 、 决 策 等 。 所 以 ， 这 一 层 
被 视 为 框架 的 大 脑 。 为 了 执行 上 述 任务 ， 将 多 个 模式 嵌入 到 此 
层 中 。 最 初 ， 大 量 的 感 测 数据 通过 聚合 机 制 进行 过 滤 ， 以 获得 
有 价值 的 实时 和 离线 数据 。MapReduce 范例 用 于 数据 分 析 ， 而 
操作 和 存储 由 Hadoop 分 布 式 文件 系统 (HDFS、HBASE 和 HIVE 
执行 。 
2.2.1 基于 粒子 滤波 的 数据 过 滤 

聚合 技术 通过 应 用 数据 过 滤 来 提高 数据 处 理 效 率 ， 在 提出 
的 框架 中 采用 粒子 滤波 (particle filter，PF) 03 执 行 数 据 过 滤 。 
PF 是 一 个 最 优 估计 器 ， 它 可 以 从 感 测 数 据 中 去 除 噪声 。PF 的 
主要 思想 是 将 后 验 概率 密度 函数 用 一 组 特殊 的 随机 样本 表示 ， 
以 估计 出 不 同 状 态 的 最 小 方差 。 


假设 在 PF 中 ， 用 p(%) = p(X |zo) 表示 状态 的 初始 概率 


密度 函数 ， 则 根据 贝 叶 斯 理论 可 知 ， 状 态 预测 方程 为 


p(X zi) 二 pc za ) PC kk J) (1) 


A lz) _ D(z [x ) px | 二 (2) 
Plz zi) 
式 (2) 中 : 
plzx zz) = [pC [x )P (NX. [zi AX (3) 


利用 蒙特 卡 洛 算法 将 整个 计算 过 程 简单 化 ， 即 将 上 式 中 的 
积分 计算 过 程 离散 化 ， 将 其 变 为 对 一 组 带 有 权 值 的 样本 求 和 。 


概率 密度 函数 


令 X(Xox |zox) 为 重要 性 函数 ， 它 是 


P(xox |zox ) 得 到 的 ， 从 TCXox |zox ) 中 取出 入 个 独立 的 样本 : 


{x04,17=1,2,...,N} 


可 以 得 到 状态 的 后 验 期 望 : 


~ 人 


ELlf.(00)]= 2 f. 00 ) Ww, 


~ (0 wi® (4) 


OO 
=. 
x 

-< 
i 
ea] 
出 


#(i) PZox Er )p(Xox) 
Ww 一 


天 
X(NXox [zo ) 


及 中: 


表示 没有 归 一 化 的 重要 


利用 重 采 样 方法 解决 计算 过 程 中 的 粒子 退化 问题 ， 即 引入 


有 效 粒 子 个 数 Noy : 


ff NWN OO (5) 


k 


当 和 Nj < Ni 时， 系统 进 行 重 采样 ， 否 则 的 话 ， 进 行 下 


步 计算 。 Nw 表示 阔 值 ， 由 实际 情况 而 定 。 


2.2.2 数据 的 存储 和 处 理 

本 文 所 提出 的 方案 在 Hadoop 框架 中 存储 和 处 理 数 据 。 利 
MapReduce 分 析 过 滤 数 据 0。MapReduce 分 两 步 工 作 。 首 
先是 将 过 滤 数 据 集 转换 为 另 一 组 数据 的 映射 ， 然 后 将 映射 过 程 
中 创建 的 数据 组 合 在 一 起 ，3 组 数量 减少 的 值 。 数 据 存 
储 和 处 理 在 实现 智慧 城市 中 发 挥 着 重要 作用 。 如 图 2 所 示 ， 所 
提出 的 框架 利用 多 种 技术 ， 如 HDFS、HBase、HIVE 等 来 满足 
上 述 要 求 。HDFS 是 Hadoop 的 主要 存储 空间 , 它 的 存储 是 分 布 
式 的 ， 能 够 满足 大 数据 处 理 的 可 扩展 性 需求 。 为 了 支持 自主 决 
策 ， 整 个 集群 上 的 实时 读 / 写 功能 至 关 重 要 ， 因 此 ，HBase 用 于 
提高 Hadoop 的 处 理 速度 ， 因 为 它 提 供 了 实时 查找 内 存 中 缓存 
的 功能 ， 此 外 ， 它 还 增强 了 系统 的 可 用 性 和 容错 性 。HIVE 通 
过 驻 留 在 Hadoop 集群 上 的 大 量 数据 提供 查询 和 管理 功能 。1 
于 SQL 不 能 用 于 查询 HIVE, 本文 使 用 HiveQL 来 查询 Hadoop 
集群 上 的 数据 
2.2.3 HIABC 算法 
本 文 提出 了 HIABC 算法 用 于 大 数据 集中 的 特征 选择 。 人 
工蜂 群 算法 (ABC ) 是 一 种 随机 搜索 的 元 启发 式 全 局 优化 算法 ， 

三 个 部 分 组 成 : 食物 来 源 、 雇 佣 的 蜜蜂 以 及 未 雇佣 的 蜜蜂 05 。 
具体 解释 如 下 : 

a) 食物 来 源 代表 了 给 定 问题 的 解决 方案 。 

b) 雇佣 蜜蜂 被 用 来 找 出 不 同 的 食物 来 源 。 此外， 它们 还 用 
于 存储 信息 ， 并 与 蜂窝 中 的 其 他 蜜蜂 共享 此 信息 。 

c) 未 雇佣 的 蜜蜂 分 为 两 类 ， 即 旁观 者 蜜蜂 和 侦察 蜜蜂 。 旁 
观 者 蜜蜂 收 到 来 自 被 雇用 蜜蜂 的 共享 信息 ， 这 些 信息 用 于 寻找 
更 好 质量 的 食物 来 源 ， 当 被 雇用 的 蜜蜂 在 寻找 食物 来 源 精 疲 力 
竭 时 ， 它 们 就 变 成 了 侦察 蜜蜂 ， 并 试图 寻找 新 的 食物 来 源 。 

ABC 算法 的 主要 过 程 如 下 所 示 : 


Si 


XE 


划 


be 


1 ”初始 化 状态 
2 ”执行 
雇佣 的 蜜蜂 


min 
Qi; 二 Cr 


+rand (a 一 的 ) (0) 
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i=1,2,3,...,N, 
源 和 优化 参数 。 
未 雇佣 的 蜜蜂 


Wy =P — Ny) 


V; 为 实物 源 ， Jj 和 大 是 随机 变量 。 
1 
l+f 


if 


fitness, = 


了 =12,3,..., 玉 ， 其 中 N 入 是 实物 来 


(7) 


三 >0 
(8) 


1+abs(f)if f.<0 


fitness; 


3 ”记录 最 可 能 的 结果 
4 ” 当 周 期 达到 最 大 时 ， 结 束 。 


PiTEF A 
DD fitness, 


(9) 


本 文 引 入 改进 后 的 小 生境 技术 9 减少 


个 侦察 个 体 间 的 距离 小 于 设 定 的 阔 值 乞 ， 则 对 它们 之 中 适 


在 ABC 算法 的 搜索 过 程 中 有 可 能 会 出 现 停滞 现象 ， 


天 


吴 疾 ， 等 : 平台 下 粒子 滤波 结合 改进 ABC 算法 的 Io 


特征 


[sl 
卫 


出 


» 


他 蜜蜂 


被 注入 到 子 集中 


O 


d) 如 果 新 发 现 的 食物 来 源 的 质量 优 于 探索 食物 来 源 的 质 


渤 


| 认为 邻近 的 食物 来 源 是 最 新 的 
kt 享 。 在 HIABC 中 ， 数 据 的 大 小 呈 指 数 


首长 


个 过 程 一 直 持 续 到 Hadoop 中 选择 最 佳 参数 为 止 。 


3 


e) 执行 基于 小 生境 的 种 群 淘汰 机 制 ， 选 择 最 但 


f) NN 个 特征 被 随机 创建 


被 分 配给 侦察 蜜蜂 ， 并 且 雇 佣 蜜 蜂 再 次 执行 它们 
实验 分 析 
对 本 文 提 出 的 体系 结构 进 


停 消 现象 的 发 生 。 两 


以 肛 


如 果 


值 小 的 个 体 进 行 惩罚 ， 以 增加 它 在 后 


面 的 进化 过 程 中 被 淘汰 的 


概率 。 经 过 这 一 步骤 后 ， 优 
以 更 好 的 保持 种 群 多 样 性 。 
索 时 ,如 果 在 


le-zlsz 
[FCx)— F(x’) 


就 表明 这 个 子 群 出 现 了 停滞 现象 ， 
新 进行 初始 化 。 式 (10) 中 ，2<i< 


| 一 x 川 代表 距离 ， 工 代表 设 定 的 羡 


良 个 体 就 会 分 散在 约束 空间 中 ， 可 
即 在 算法 中 ， 
固定 的 进化 代数 内 , 适应 度 最 高 


当 侦察 蜂 在 子 群 内 搜 
的 两 代 个 体 满足 : 


[< (10) 


于 此 需要 把 它 淘汰 ， 重 


1,2<j<I, Hizj, 


值 ，O 代表 子 群 个 体 适应 


度 值 的 标准 


E 差 ，17 代表 子 群 内 的 最 大 进化 代数 ，FF(x'), F(x’) 


表示 子 群 第 入 j 代 中 的 最 优 个 体 的 适应 度 值 。 


在 HIABC 


出 地 


的 一 个 特定 场景 中 ， 每 个 食物 来 源 与 一 个 
(大 小 为 W， 其 中 W 是 特征 的 总 数 ) 相 关联 。 矢 量 中 的 位 置 与 
需要 评估 的 特征 总 数 一 致 。 在 这 种 情况 下 ， 如 果 约 定 特征 的 值 


并 矢 


等 于 1, 则 表明 该 特征 是 评估 子 集 的 一 部 分 。 如 果 特 征 值 等 于 0， 
则 表明 特征 不 是 评估 子 集 的 一 部 分 。 此 外 , 食物 来 源 储 存 其 质 
量 信息 ， 可 由 分 类 器 指定 的 特征 子 集 的 精度 给 

HIABC 算法 用 于 特征 选择 的 步 又 如 下 : 


a) 在 Hadoop 处 理 系统 中 ， 当 使 用 粒子 滤波 从 数据 集中 去 


现 。 
3.1 


10 个 数 


数据 集 


本 文 提 出 的 优化 和 特 生 
虽 集 上 进行 测试 ， 使 ) 
算法 上 测试 每 个 数据 集 。 每 个 数据 


食物 来 源 。 这 些 信息 与 其 


LE 个 体 。 
提交 给 分 类 器 ， 新 发 现 的 来 源 


的 任务 。 


行 测试 ， 并 与 随机 森林 算法 、 文 
献 [18，19] 算 法 进行 对 比 。 对 每 种 方法 在 相同 的 数 
测试 ， 总 共 进 行 十 次 重复 实验 ， 

结果 。 所 有 的 实验 都 是 在 安装 在 
Hadoop 上 进行 的 。 所 提出 的 特 和 


集 上 进行 
以 实验 结果 的 平均 值 作为 最 终 
Ubuntu 14.04 LTS 中 
E 选 择 算法 以 Java 编程 语言 实 


多 集群 的 


FE 选择 方法 在 UCI 机 器 学 习 库 P0 的 
多 群集 Hadoop 系统 在 不 同学 习 
昌 集 的 描述 如 表 1 所 示 。 每 个 


数据 集 上 主要 是 根据 特征 的 数量 对 算法 进行 分 析 。 
表 1 用 于 测试 分 析 的 数据 集 
数据 集 特征 数 。” 示例 数 
室内 活动 监测 传感器 11 928 438 
空气 质量 15 9251 
GPS 轨迹 15 163 
来 自 RSS 的 室内 用 户 移动 预测 4 13 397 
3D 路 况 网 络 4 454 865 
污水 处 理 厂 38 567 
肝炎 19 155 
住房 14 512 
云 10 1 028 
于 情绪 分 析 的 Twitter 数据 集 2 2 073 
3.2 结果 讨论 


基于 IABC 的 特征 选择 的 性 能 评估 和 准确 度 是 


出 
[Ee 
可 
"和 
| 
ul 


及 个 不 同 分 区 的 10 倍 交叉 验证 来 获得 的 。 在 这 个 过 程 中 ， 
其 中 一 个 分 区 用 作 主 分 区 ， 其 余 天-1 个 分 区 用 作 训练 集 ， 访 


除 噪声 时 ， 系 统 利用 前 向 搜索 策略 0 找到 最 佳 和 最 低 数量 的 特 ”过程 重复 十 次 ， 最 终结 果 为 所 有 十 个 分 区 的 平均 值 。 此 外 ， 在 
征 。 在 前 向 搜索 策略 中 ， N 个 食物 来 源 含有 N 个 特征 。 测试 中 建立 的 特征 使 用 Z 分 机 制 进行 了 归 一 化 处 理 ， 该 机 制 将 
b) 每 个 食物 来 源 的 特征 子 集 被 分 配给 分 类 器 , 其 中 它 使 用 。” 每 个 特征 集 的 平均 值 相 减 ， 并 将 其 除 以 该 集 的 标准 差 。 
准确 度 作为 适度 值 (准确 度 被 存储 在 食物 源 的 适合 度 中 )。 UCI 数据 集 的 不 同 特征 影响 了 特征 选择 算法 的 性 能 和 准确 
c) 利用 修正 率 参 数 (MR) 来 确定 所 选 食物 来 源 的 邻居 ， 性 。 表 2 中 给 出 了 选 定数 量 的 特征 和 全 部 特征 的 准确 性 情况 比 
家 佣 蜜 峰 访问 每 个 食物 来 源 并 探索 邻居 。 为 了 提取 特征 ， 从 最 。” 较 。 表 3 是 在 相同 条 件 下 本 文 算法 与 随机 森林 算法 、 文 献 [18] 
初 食物 来 源 的 位 向 量 创建 分 居 。 在 位 矢量 的 每 个 位 置 生成 一 个 。 算法 以 及 文献 [19] 算 法 的 分 析 比 较 结果 ， 所 选 特征 比 其 他 原始 
随机 的 数字 玉 (0 < 民 < 1)。 如 果 该 值 小 于 扰动 参数 MR, 则 该 。 入 列 小 得 多 。-3 共 但 方法 相 比 ， 在 六 多 数 的 数据 集中 ， 本 
文 提出 的 特征 选择 算法 在 准确 性 方面 表现 更 好 。 在 详 如 空气 质 
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量 ，3D 路 况 网 络 和 云 等 数据 集中 ， 本 文 算法 的 准确 性 较 差 ， 本 文 算法 的 准 


而 在 某 些 情 况 下 ， 如 GPS 轨迹 和 用 于 情绪 分 析 的 Twitter 数据 


的 算法 在 准确 性 方面 


颖 ， 等 : 平台 下 粒子 滤波 结合 改进 ABC 


O 


算法 的 JoT 大 数据 特征 选择 方法 


E 确 度 要 优 于 男 外 三 种 算法 。 总 体 而 言 ， 本 文 提出 
E 够 表现 出 较 好 的 结果 。 


集中 ， 本 文 算 法 的 准确 度 几乎 与 其 他 方法 相同 ， 其 余 情 况 下 ， 
表 2 提出 的 系统 在 UCI 数据 集中 的 准确 性 
数据 集 特征 总 数 选择 的 特征 数 精度 (9%) 平均 精度 (%) 
室内 活动 监测 传感器 12 5 73.35 94.36 
空气 质量 15 8 72.88 83.91 
GPS 轨迹 15 5 64.64 77.02 
来 自 RSS 的 室内 用 户 移动 预测 5 3 73.96 84.32 
3D 路 况 网 络 4 1 74.51 82.77 
污水 处 理 厂 39 15 80.73 95.67 
肝炎 17 10 64.39 92.09 
住房 18 6 56.65 81.87 
云 10 6 74.73 78.25 
用 于 情绪 分 析 的 Twitter 数据 集 2 1 83.56 91.53 
表 3 本 文 方案 与 其 他 方法 的 准确 性 比较 
数据 集 随机 森林 算法 (%) 文献 [18] 算 法 (%) 文献 [19] 算 法 (%) 本 文 算法 (%) 
室内 活动 监测 传感器 84.83 79.26 77.95 94.36 
空气 质量 92.65 92.99 90.25 83.91 
GPS 轨迹 70.88 68.72 66.72 77.02 
RSS 用 户 移动 预测 77.02 77.58 74.60 84.32 
3D 路 况 网 络 88.85 90.74 87.52 82.77 
污水 处 理 厂 89.27 87.66 82.63 95.67 
肝炎 87.25 88.29 82.46 92.09 
住房 66.89 74.68 76.11 81.87 
云 83.32 85.31 72.37 78.25 
于 情绪 分 析 的 Twitter 数据 集 90.16 88.79 89.16 91.53 


医 


3 为 在 GPS 轨迹 数据 集 下 ， 选 择 不 同 的 特征 个 数 时 ， 


大 量 数据 ， 但 相同 数 


四 种 算法 的 分 类 准确 性 结果 比较 图 。 从 图 中 可 以 看 出 ， 本 文 提 。 人 
日 
出 的 方案 在 GPS 轨迹 数据 集 上 的 分 类 性 能 优 于 其 余 三 种 特征 地 处 理 


噪音 。 随 着 本 文 数据 量 的 逐渐 增加 ， 
量 的 情况 下 ， 
显 比 其 余 两 种 系统 的 处 理 时间 少 ， 本 文系 统 能 够 实时 有 效 
数据 并 生成 帮助 对 象 做 出 决策 的 结果 。 例 如 ， 实 时 处 理 


三 种 系统 均 能 够 实时 处 理 
本 文系 统 的 所 需 的 处 理 时 


环境 数据 有 助 于 对 象 避 免 去 那些 污染 严重 的 地 方 。 


选择 算法 ， 并 且 随 着 特征 个 数 的 增加 ， 分 类 准确 性 也 在 不 断 提 
高 。 当 特征 选择 个 数 为 12 时 ,本文 算法 有 最 好 的 准确 率 85.62%。 .008105 
本 3 50E+05| 
人 3.00E+05 
80 2 a 本 
区 二 一 全 一 全 一 E250E+C 
70 a A 到, Etos 
5 gpy 
,1 60 上 Br 一 -六 A 总 150E+05 
起 pp 一 多 一 Ar 一 个 
慎 0 /2 1 1.00E+05| 
狼 / a JOE+04 
不 40 上 pf pr | 一 ae 一 本文 算 法 [| 0.00E+00 
才 一 6 一 文献 [18] 算 法 
0 | -文献 Do] 生 法 
jk A 一 随机 森林 算法 图 4 不 
2 4 6 8 10 12 14 
特征 个 数 本 文 还 通过 增加 


图 3 GPS 轨迹 数据 集 分 类 准确 性 


图 5 所 示 ， 乔 吐 量 与 数据 集 上 
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的 大 小 来 测试 提出 系统 的 吞吐 量 。 如 
的 大 小 成 正比 。 当 数据 集 的 大 小 增 


接 下 来 将 基于 IABC 算法 的 系统 与 单个 节点 Hadoop、 基 ”加 时 ， 大 吐 量 也 会 增加 。 最 初 ， 三 种 系统 的 数据 处 理 速度 相差 


于 Java 的 查询 系统 进行 比较 ， 结 果 如 图 4 所 示 。 在 单个 节点 
Hadoop 中 ， 每 次 处 理 数据 时 都 没有 任何 系统 优化 。 另 一 方面 ， 。” 基于 Java 的 查询 系统 处 理 
基于 Java 查询 的 系统 通过 所 有 其 他 群 优化 方法 进行 测试 , 过 滤 ”依旧 能 够 保持 较 高 的 效率 。 


系统 用 于 在 将 数据 传递 到 Hadoop 生态 系统 之 前 从 数据 中 去 除 


不 大 ， 但 是 ， 随 着 数据 集 大 小 的 增加 ， 单 个 节点 Hadoop 和 
速度 大 大 降低 。 相 比 之 下， 本 文 方案 
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图 5 不 同系 统 的 吞吐 量 比较 

为 了 用 其 他 数据 集 进行 测试 和 验证 ， 本 文 测量 了 在 不 同 医 
疗 数据 集 上 的 处 理 时 间 ， 如 图 6 和 7 所 示 。 由 图 可 知 ， 本 文 所 
提出 的 方案 需要 几 秒 钟 来 处 理 以 GB 为 单位 的 数据 。 此 外 ， 如 
果 增 加 数据 集 的 大 小 ， 吞 叶 量 也 会 被 最 大 化 ， 因 此 ， 从 这 些 结 
果 可 以 得 出 结论 ， 本 文 所 提出 的 具有 并 行 处 理 的 系统 具有 更 好 
的 数据 处 理 效果 。 
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7 本 文 提 出 系统 在 不 同 数据 集 的 吞吐 量 
4 ”结束 语 

本 文 提 出 了 大 数据 物 联 网 中 特征 选择 的 系统 架构 。 所 提出 
的 方案 基于 四 层 体系 结构 模型 ， 可 以 高 效 地 聚合 有 效 数 据 ， 易 
除 不 需要 的 数据 。 整 个 系统 利用 改进 蜂 群 算法 选择 特征 ， 通 过 
Hadoop 生态 系统 处 理 数据 ， 系 统 基 于 MapReduce 工具 实现 ， 
利用 粒子 滤波 来 消除 噪声 。 结 果 证 明 ， 在 Hadoop 生态 系统 
中 使 用 IABC 可 显 着 提高 系统 特征 选择 的 效率 。 
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